Day12- 決策樹模型及其應用
何謂決策樹模型
決策樹模型是一種常見且直觀的機器學習演算法,用於分類和回歸分析。其結構如同樹狀,由節點和分支組成,每個節點代表一個特徵或屬性,分支則代表根據該特徵的不同值所做出的選擇。最終的葉節點表示分類結果或預測值。決策樹的優點在於其高可解釋性和簡單明了的決策過程。
20Questions遊戲http://20q.net/
20Questions遊戲是一個典型的利用決策樹原理的例子。遊戲的目的是讓電腦在20個問題內猜出玩家心中所想的事物。這個過程可以類比於決策樹的運作方式:
-
20Q.NET遊戲目的:玩家心中想著一個物品,然後回答電腦提出的問題。
-
人工智慧模型提問:電腦根據玩家的回答,選擇下一個最有可能區分物品的問題。
-
20個問題內猜測:通過一系列的二元問題,電腦逐步縮小可能的選項範圍,最終猜出玩家心中的物品。
這個過程中,每個問題相當於決策樹的一個節點,而每個回答則是該節點的分支。隨著問題的不斷提出,樹的深度增加,最終導致對物品的正確分類。
決策樹在刑事鑑識中的應用
決策樹在刑事鑑識中的應用與其在20Questions遊戲中的運作相似。警方和鑑識人員在調查過程中,會根據不同的線索逐步縮小嫌疑範圍,這與決策樹根據特徵逐步分割資料的方式類似。
-
警察與鑑識人員的搜索行為:他們會從現場獲得初步線索,然後根據這些線索逐步排除不相關的嫌疑人或假設。
-
根據線索做出決斷的重要性:每個新的線索相當於決策樹中的一個新特徵,這些特徵幫助鑑識人員進一步分類和篩選嫌疑人。
決策樹的特徵切割過程
決策樹的核心在於其特徵切割過程,即利用特徵將資料分割成不同的組別,直到每個組別內的資料都屬於同一類別:
-
利用特徵A切割資料:初始節點根據某個特徵A(如打工時數)將資料分成多個組。
-
重複尋找新特徵切割:對每個新分組,重複尋找新的特徵進行切割,直到所有資料都歸屬於一個類別。
-
持續切割直到同一類別:這樣的分割過程不斷重複,最終形成一個完整的決策樹。
決策樹演算法中的不純度概念
在決策樹中,不純度(Impurity)是用來衡量數據混合程度的概念。常見的不純度指標包括基尼係數和熵。決策樹通過選擇能最大程度減少不純度的特徵進行切割,來提高分類的準確性。
-
區分能力的重要性:選擇區分能力強的特徵,有助於更精確地分割資料。
-
不純度的意義和用途:減少不純度意味著提高分類的純度,即每個葉節點內的資料屬於同一類別。
-
單純性對於子群資料的重要性:子群內資料越單純,分類效果越好。
決策樹用於資料分類的應用實例
以分析打工時數與購買車輛的關係為例,決策樹能有效區分不同年齡段和打工時數的資料,並預測購車的可能性:
-
統計發現:例如,統計顯示20歲以下男生的打工時數與購車行為無關,而超過20歲的男生中,打工時數與購車行為有顯著相關性。
-
使用年齡區分後計算Information Gain:通過年齡這一特徵將資料切割,計算信息增益,以此決定最佳的切割點。
決策樹的邏輯結構
決策樹使用if-then結構來進行資料分類,非常適合處理離散資料:
-
打工時數高的人會購買:如果某個人打工時數高,那麼他購車的可能性較高。
-
大於20歲的男性會購買:如果某個人年齡大於20歲,並且打工時數高,他購車的可能性很高。
-
處理離散資料:決策樹適用於處理離散的特徵,對於連續數字,則需要事先將其轉化為離散的類別。